هوش مصنوعی در فهمیدن تعامل های اجتماعی تا این مدت خوب نیست_دانستنی
نوشته و ویرایش شده توسط مجله ی دانستنی
محققان در پژوهش جدیدی دریافتند مدلهای هوش مصنوعی جاری باوجود پیشرفتهای زیادشان، تا این مدت در توصیف و تفسیر تعامل های اجتماعی در صحنهای متحرک ضعیفتر از انسانها عمل میکنند. این توانایی برای خودروهای خودران، رباتها و دیگر فناوریهایی که برای تعامل در دنیای واقعی به سیستمهای هوش مصنوعی متکیاند، الزامی است.
بر پایه گزارش ScienceDaily، محققان دانشگاه جانز هاپکینز میگویند سیستمهای هوش مصنوعی در فهمیدن تعامل های و پویایی اجتماعی و عرصه ملزوم برای تعامل با افراد از انسان ناکامی میخورند. به حرف های آنها این مشکل امکان پذیر ریشه در زیرساخت سیستمهای هوش مصنوعی داشته باشد.
کارکرد ضعیف هوش مصنوعی در فهمیدن تعامل های اجتماعی
«لیلا ایسیک» (Leyla Isik)، نویسنده مهم پژوهش حاضر و استادیار علوم شناختی دانشگاه جانز هاپکینز، میگوید:
«برای مثال، هوش مصنوعی در خودروی خودران باید نیتها، اهداف و عمل های رانندگان و عابران پیاده را تشخیص دهد. هوش مصنوعی باید بداند عابر پیاده قرار است از کدام سمت برود یا آن ۲ نفری گفتگو میکنند یا قرار است از خیابان عبور کنند. درواقع هر زمان هوش مصنوعی بخواهد با انسانها تعامل داشته باشد، باید تشخیص دهد مردم چه کار میکنند. فکر میکنم این سیستمها اکنون نمی توانند این کار را تشخیص دهند.»
محققان میگویند فقط دیدن عکس و تشخیص اشیا و چهرهها کافی نیست. این دستاورد اولین قدم می بود که علتپیشرفت عظیم مدلهای چندوجهی هوش مصنوعی شد اما زندگی واقعی ایستا نیست و هوش مصنوعی باید بتواند وقایعی را که در صحنهای رخ میدهد، فهمیدن کند. درنهایت این فناوری باید روابط، عرصه و پویایی تعامل های اجتماعی را فهمید بشود. درکل پژوهش محققان نقطهای کور در گسترش مدلهای هوش مصنوعی را مشخص می کند.
در مقام قیاس کارکرد مدلهای هوش مصنوعی با انسان، محققان از شرکتکنندگان انسانی خواستند کلیپهای ویدیویی سهثانیهای تماشا کنند. این کلیپها شامل افرادی بودند که با هم تعامل داشتند و فعالیتهایی کنار هم یا بهتنهایی انجام میدادند. شرکتکنندگان باید این تعامل های را برسی میکردند. سپس محققان از تقریباً ۳۵۰ مدل هوش مصنوعی زبانی، ویدویی و تصویری خواستند درمورد این کلیپها نظر بدهند. در مدلهای زبانی بزرگ، محققان از هوش مصنوعی خواستند کپشنهای مختصر نوشته انسان را برسی کند.
شرکتکنندگان در زیاد تر موارد، با یکدیگر درمورد محتوای ویدیوها توافق داشتند اما مدلهای هوش مصنوعی، صرفنظر از اندازه یا دادههایی که بر پایه آنها آموزش دیده بودند، این چنین توافقی نداشتند. مدلهای ویدیویی نمی توانند کارهایی را که افراد در ویدیوها انجام میدادند، دقیق توصیف کنند. این چنین مدلهای تصویری نتوانستند بهطور قابلاعتمادی پیشبینی کنند افراد درحال برقراری ربط می باشند یا خیر. یقیناً مدلهای زبانی در پیشبینی حرکت انسان بهتر بودند.
محققان اعتقاد دارند این اتفاق به این رخ میدهد که شبکههای عصبی هوش مصنوعی از بخشی از مغز که مسئول پردازش تصاویر ایستاست، الهام گرفتهاند که با ناحیهای از مغز که صحنههای اجتماعی پویا را پردازش میکند، متفاوت است.
یافتههای این پژوهش در کنفرانس بینالمللی یادگیری بازنمایی اراعه شد.
دسته بندی مطالب
